王子子的成长之路

天池赛IJCAI-17 口碑商家客流量预测 解题思路

赛题与数据
代码

基本数据创建

result:每家店铺每日交易成功数量
view:每家店铺每日浏览量

参数分解

shop_info

shop_id city_name location_id per_pay score comment_cnt shop_level cate_name..
商家id 城市名 所在位置编号 人均消费 评分 评论数 商铺等级 分类

shop_id:主键,索引
city_name:获取气温、消费能力、消费习惯
location_id:聚类算法,估计功效太低没什么意义,pass
per_pay:检测与result负相关,与view负相关。
socre:检测与result正相关,与view正相关。
comment_cnt:检测与result正相关,与view正相关。
shop_level:检测与result正相关,与view正相关。
cate_name:分类太细,考虑只保留使用“超市”和“美食”进行区分。

检测per_payscorecomment_cntshop——levelviewresult的关联度。
score有很大的问题:这个值是处于变动的。

user_pay

user_id shop_id time_stamp
付费用户id 商家id 消费时间

time_stamp:分解出日期day和时间time列。

user_view

user_id shop_id time_stamp
浏览用户id 商家id 浏览时间

time_stamp:分解出日期day和时间time列。

特征工程

1.考虑到口碑是2015年6月23日开始发布,必然遭遇冷启动和虚假数据问题,那么时间序列中,体现趋势的指标应该是7日移动平均线ma,影响最大的特征因子应该是最近一次的ma_7。
2.城市天气逻辑体现非常重要,主要划分了三级(晴,小雨/小雪/,大雨/雪),但划分后的效果并不很好。
3.当日是否为工作日,次日是否为工作日比较重要。
4.16年情人节到过年的那周视为噪音。
5.GDP作为特征果然没效果,删了。

感受

1.以不同可索引对象制造的模型再融合有巨大威力,第一次瞎配的权重都带来了最好的提升。
2.solo的问题不在于想法…判断出哪个想法提升最多是最重要的,当然这需要经验。
3.xgboost因为bug跑不起来,没时间走ARIMA,也没时间再上prophet,凄苦…水平不够时候有队友提升会比较快。
4.合理利用每日评分确定正确方向是非常有必要的,相信前几的差距已经是谁对趋势判断更敏锐了。
5.全身心的投入大约勉强能进前200,看wepon大神的blog,对底层的理解还是很重要,今后要加强学习和训练。